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摘 要: 针对 传统 推荐 算法 忽略 用 户 社交 影响 、 研 究 角度 不 全 面 和 缺乏 物理 解释 等 问题 ， 提 出 一 个 融合 社交 行为 和 标 
签 行为 的 推荐 算法 。 首 先 用 引力 模型 计算 社交 网 络 中 用 户 节 点 之 间 的 吸引 力 来 度量 用 户 社交 行为 的 相似 性 ; 其 次 通过 
标签 信息 构建 用 户 喜 好 物体 模型 ， 并 使 用 引力 公式 计算 喜好 物体 之 间 的 引力 来 度量 标签 行为 的 相似 性 。 最 后 ， 引 入 变 
量 融 合 两 方面 信息 ， 获 取 近 邻 用 户 ， 产 生 推 荐 。 采 用 Last。fm 数据 集 进行 实验 研究 ， 结 果 说 明 推 荐 算法 的 准确 率 和 召 
回 率 更 高 。 
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Study of recommended algorithms integrating social behavior and labeling behavior 
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Abstract: In view of the traditional recommendation algorithm ignoring the impact of social behavior of users, the 
incomprehensive research perspective and lack of physical explanation, a recommendation algorithm was proposed that 
integrated social behavior and tagging behavior of users. Firstly, the attractiveness between user nodes in social network was 
calculated by gravity model to measure the similarity of users' social behavior. Secondly, the user's favorite object model was 
constructed by label information, the gravitation formula was also used to calculate the gravitation between favorite objects to 
measure the similarity of tagging behaviot Finally, the paper introduced the variables to weigh the proportion of two similar 
values, and then got the set of neighbors and generated recommendations. Experimental results using Last. fm dataset showed 
that the proposed algorithm had higher precision and recall. 
Key words: social behavior; labeling behavior; gravitation; collaborative filtering 
验 发 现 ， 用 户 决 策 时 通常 选择 听从 信任 的 好 友 的 意见 ， 而 忽视 
系统 推荐 。 因 此 ， 合 理 利用 社交 网 络 中 用 户 社交 行为 将 有 助 于 
据 估 计 到 2020 年 ， 全 球 产生 的 信息 总 数 将 会 超 40ZB， 我 ” 提高 推荐 的 准确 度 。 
国 的 贡献 率 预 计 会 占 到 近 21% 中 。 面 对 数据 的 大 规模 爆发 ， 个 目前 已 经 有 一 些 学 者 在 社会 标签 系统 中 融合 社交 行为 进行 
性 化 推荐 技术 营运 而 生 ， 成 功 解决 “信息 过 载 ”问题 外 。 近 几 ”推荐 W' 外 ,但 这 些 方法 都 缺乏 一 定 的 物理 解释 ， 且 推荐 的 准确 
FE， 以 YouTube、Last.fm、 微 博 、 豆 办 等 代表 的 社会 标签 系统 率 还 有 待 提高 。 因 此， 本 文 在 综合 前 人 研究 的 寺 
出 不 穷 。 成 为 推荐 技术 一 个 重要 的 研究 方向 。 个 融合 社交 行为 和 标签 行为 的 协同 过 滤 推 荐 算法 。 一 方面 是 用 
部 分 学 者 从 聚 类 技术 B、 下 、 社 交 信 任 外 等 角度 。 复杂 网 络 理论 对 社交 网 络 中 的 用 户 社交 行为 进行 研究 ， 利 用 引 
分 学 者 将 物理 学 方法 应 用 于 推荐 系统 中 ， 如 。”” 力 原理 计算 基于 社交 行为 的 用 户 相 似 度 ; 另 一 方面 是 根据 用 户 
杨 卫 芳 等 人 多 提出 一 种 混合 热传导 和 物质 扩散 理论 的 方法 ， 研 ”标签 行为 来 构建 用 户 的 兴趣 向 量 ， 并 采用 TF-IDF 方法 计算 权 
究 用 户 的 活跃 度 ， 并 有 效 改善 推荐 算法 。 王 国 霞 在 社会 标签 系 ” 重 , 利 用 引力 原理 计算 基于 标签 行为 的 用 户 相 似 度 。 算 法 的 最 
统 中 通过 万 有 引力 原理 分 别 改进 用 户 相 似 度 和 项 目 相似 度 计量 。 终 目 的 是 将 两 方面 的 相似 性 引用 变量 加 权 求 和 , 实现 算法 改进 。 
方法 , 分 别提 出 用 户 引 力 人 7 中 和 项 目 引 力 久 的 概念 ， 实验 获得 了 ”通过 本 文 的 研究 ， 期 望 能 够 达到 提高 推荐 算法 性 能 和 和 赋予 推 
较 其 他 算法 更 优 的 推荐 性 能 。 然 而 这 些 方法 都 忽略 了 用 户 社交 。 ” 荐 系统 物理 解释 的 目标 。 
行为 的 影响 。 在 实际 的 生活 中 ， 人 们 的 每 一 次 选择 都 不 可 避免 
地 会 受到 朋友 、 家 人 或 其 他 信赖 的 人 的 影响 。Bonhard09 通 过 实 
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1 ”相关 理论 


1.1 传统 的 基于 用 户 的 协同 过 滤 推 荐 
本 文 在 传统 的 基于 用 户 的 


Ht 
| 


性 考察 方 式 进 行 
括 以 下 三 个 半 
推荐 。 算 法 步骤 如 图 1 所 示 。 


上 


荐 基础 上 对 用 户 相似 
的 协同 过 滤 推 荐 的 流程 主要 包 


1) 构建 ) 


分 : 构建 用 户 -项 目 评价 模型 、 确 定 近邻 用 户 、 实 
| 用 户 -项 目 评价 模型 让 邻居 用 户 选择 上 2 产生 推荐 | 
图 1 协同 过 滤 推 荐 算法 步 又 图 
j 户 -项 目 评价 模型 
用 户 对 物品 项 目的 评价 有 很 多 种 表现 形式 。 其 中 最 为 常见 
也 可 以 用 二 值 数据 (0/1) 来 确定 物品 特征 


可 
二 


的 是 1~5 的 打分 制 。 


p 


Rc 


。 如 果 用 户 对 项 目 没 有 任何 的 记 


Si 


j 零 值 或 者 空 值 来 蔡 代 。 在 境 
一 个 n X 始 的 用 户 -项目 评 价 和 矩阵 Raxm。 其 中 ?是 用 户 数量 ， 


了 为 ， 则 对 应 的 评价 


值 
评价 信息 的 基础 上 ， 可 以 得 到 


是 项 目 数 量 ，Rij 为 第 i 个 用 户 Ui 对 第 j 个 项 目的 评价 值 。 用 户 - 


项 目 评价 矩阵 是 相似 值 考察 的 习 


2) 邻居 | 


户 选择 


邻居 用 户 站 


的 选择 依赖 于 


度 ， 相 似 度 越 大 的 用 户 对 目标 月 
就 越 好 。 皮 尔 逊 相关 系数 、 
是 常用 的 相似 度 计 算 方 法 。 相 似 度 计算 之 后 ， 可 以 采用 
法 或 者 是 闵 值 法 得 到 邻居 用 户 的 集合 。 


3) 产生 扒 


根据 用 户 对 某 个 项 
值 计算 公式 如 下 : 


Pui = 及 十 


其 中 : Pi 是 用 户 4 对 项 


近邻 用 户 集合 ve NB。sim(wu,v) 是 两 个 用 户 w 和 vwv 之 间 


影响 越 大 ， 
余弦 相似 怕 


示 用 户 与 系统 中 其 他 用 户 的 相似 
荐 的 效果 也 


等 


和 修正 的 余弦 相似 性 等 


个 推荐 流程 。 


性 大 小 , Ri 是 用 
UU 和 vw 对 系统 
按照 由 大 到 小 排 


出 


户 Y 对 项 目 认 


DvenB sim(u, 7) x (Ryi R,) 


Fvews(sim(u, v)) 
目 ;的 预测 打分 值 , NB 是 待 推荐 用 户 u 的 
的 相似 
的 打分 值 。 变量 国生 ;分别 是 用 


(1) 


固定 值 


的 预测 打分 值 来 获得 推荐 的 结果 。 该 


户 


已 评分 项 


jj， 选择 Top-N 的 项 


1.2 ”社会 标签 网 络 


来 。 该 网 络 中 存在 用 户 、 项 目 、 标 签 三 类 节点 ， 组 成 三 部 


社会 标签 网 络 的 网 络 结构 上 


咏 


F 均 打分 值 。 根 据 预 测 分 值 ， 
物体 进行 推荐 。 结 束 整 


和 和 二 部 图 吧 - 瑟 演 化 而 
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如 图 2 所 示 。 


图 2 用 户 -项 目 -标签 三 部 医 

给 出 如 上 图 所 示 的 社会 标签 网 络 相 关 的 矩阵 定义 为 : 假设 
用 户 集合 为 = (wi,wz,… ,un), n 为 用 户 总 数 ， 项 目 集合 为 1 = 
(i iz,…,im),，m 为 项 目 总 数 , 标签 集合 T = (ti1,t2,…,t1), ! 为 标 


签 总 数 。 三 者 的 矩阵 关系 表示 为 : 用 户 - 项 目 评价 和 矩阵 R (user- 


item rating matrix )。 如 果 有 n 个 用户 UV = Gy 2 和 7 个 项 


ul 


目 1 = (i1,iz,…,im)， 由 于 打分 等 评价 行为 得 到 一 个 n x m 的 矩 
阵 。 该 矩阵 的 行为 用 户 , 列 为 项 目 ， 当 用 户 ;选择 了 项 目 /并 且 评 
分 为 x 时 ， 和 矩阵 中 的 7ij = xX， 否 则 rij = 0。 

月 
n 个 用 户 U = (wuz,… ,un) 和 1! 个 标签 7 = (t,t2,…, 刀 )， 它 们 之 
间 形 成 一 个 n x ! 的 矩阵 。 拢 阵 的 行为 用 户 ， 列 为 标签 。 当 用 户 
i 使 用 标签 g 的 次 数 为 y 时 ， 和 矩阵 中 的 sig = y， 否 则 sig = 0。 


标签 -项 目 频 率 和 矩阵 Q (tags-item frequency matrix )。 假设 


ann 


户 -标签 频率 矩阵 9 (user-tags frequency matrix )。 假 设 有 


1 个 标签 7 = (tt2,…,t1) 和 m 个 项 目 1 = (i1,iz,…,im)， 它 们 之 
间 形 成 一 个 1x m 的 矩阵 。 和 矩阵 的 行为 标签 ， 列 为 项 目 。 当 有 p 
个 标签 g 标 注 了 项 目 j 时 ， 和 矩阵 中 的 qgj = p， 否 则 qgj = 0。 
1.3 万 有 引力 定律 

牛顿 万 有 引力 定律 认为 任何 两 个 物体 在 连 心 方向 上 有 相互 
之 间 的 吸引 力 。 该 引力 的 大 小 与 它们 质量 的 乘积 成 正比 与 它们 
距离 的 平方 成 反比 ， 公 式 表 示 为 


mm 


F=G (2) 


r2 
其 中 : FF 表示 两 个 物体 之 间 的 引力 ，G 为 引力 常量 ，m4、m2 分 
别 表示 两 个 物体 的 质量 ，r 表 示 两 个 物体 之 间距 离 。 


2 ”用 户 相似 度 计算 
2.1 用 户 社交 行为 的 相似 度 
互联 网 技术 的 发 展 和 智能 设备 的 普及 ， 极 大 改变 了 传统 的 
社交 形式 ， 人 们 可 以 通过 网 络 社交 来 建立 自己 的 好 友 关 系 网 ， 
乡 成 相互 之 间 的 信任 。 根 据 在 线 社交 网 络 中 用 户 之 间 的 社交 
为 可 以 构建 用 户 与 好 友之 间 的 矩阵 关系 C。 假 设 用 户 集合 为 U 


太 


LI 


马 ! 


201804.02154v1 


chinaXiv 


录用 稿 


ChinaX 合作 期 | 


到 漳 薪 云 ， 等 人 的 推荐 算法 研究 


(UUz,… ,Un)，n 为 用 户 总 数 ,月 


个 n x n 的 方 阵 ， 


Cii 一 
J 
0 


从 复杂 网 络 的 角度 
的 节点 ， 用 户 之 | 


] 户 ww 和 用 户 w 不 相互 关注 


户 之 间 的 社交 好 友 关 系 形成 一 
ch (3) 所 示 。 


I 好 友 关 系 可 视 为 网 络 中 节 


因此 给 定 一 个 加 权 医 
邻接 矩阵 4 = 


二 


口 o 


其 中 : 若 eij 一 (7 
边 权 )。 本文 对 连 边 的 权 值 作 
同 标注 的 项 目 数量 


连 边 , 两 个 关联 用 广 


有 户 可 视 为 网 络 中 
让 点 与 节点 之 间 的 


个 数 定义 为 边 权 。 


;) EE, Wij 表示 边 eij 三 (v6) 上 的 权 


G=(VE)，V 是 节点 的 集合 ，E 是 边 的 外 


[aij]wxw 可 以 表示 为 


uy 


如 下 定义 。 假设 两 个 好 友 用 户 


为 bij， 的 取 值 存在 i 


= 人 A 


情况 ， 表 示 如 


其 中 : 五 表示 用 户 公 标注 的 项 目 集合 ， 
集合 。 因而 ， 定义 wi = bij 十 工 ， wij 为 大 


未 注 的 项 


于 0 的 正 整数 。 


义 满足 两 个 目的 。 


AU 


况 ;二 是 避免 边 权 出 现 等 
将 牛顿 万 有 引力 引 


该 定 


连接 的 情 


是 供 保障 。 


公式 重新 定义 为 


硬是 节点 让 对 节点 芒 的 引 


的 节点 处 于 同一 个 网 络 环境 中 ， 


用 户 网 络 中 任何 两 个 用 


户 节 点 之 闻 也 存在 引力 作 / 
说 明 用 户 之 间 的 关系 越 密切 ， 用 户 社交 行为 越 相似 。 根 据 网 络 
的 结构 特征 , 将 网 络 中 任意 两 个 相关 联 的 节点 vi、 vj 之 间 的 引力 


了 引力 定律 ， 
 , 引力 越 大 ， 


EE 


wal 


为 本 文 而 


取 G =1。 节点 的 质量 mj、 mj 


和 节点 间 的 距离 rij 是 计算 


如 下 。 


a) 质量 。m 


mi; = k; = 


三 


my 分 别 表示 网 络 中 节点 Di、 
中 一 个 节点 的 价值 首先 取决 于 这 个 节点 在 网 络 中 所 处 的 位 置 
位 置 越 中 心 的 节点 其 价值 越 大 。 
相对 重要 性 。 因 而 本 文采 用 节点 和 
中 节点 的 质量 ， 即 认为 一 个 节点 的 度 


此 ， 节 点 Vi 的 质量 的 ; 


站 


fw 


点 间 引 力 的 关键 。 本 文 给 出 的 定义 


性 反映 了 网 络 中 各 节点 的 
的 标准 化 度 中 心性 来 衡量 


。 网 络 


网 络 
重要 。 因 


b) 距离 。 在 加 权 网 络 中 , 边 权 按照 其 意义 可 以 分 为 相 异 权 
和 相似 权 。 本 文 期 望 考 察 两 个 用 户 节点 之 间 的 相似 性 ， 因 此 从 
相似 权 角 度 出 发 ， 权 值 越 大 ， 两 点 之 间 的 距离 越 小 ， 关 系 也 就 
越 密切 。 因 此 边 eij 的 长 度 定义 为 


和 
Wij 
假设 节点 vi 入 通过 两 条 权重 分 别 是 Wij 和 wx 的 边 相 连 ， 
在 相似 权 情 况 下 节点 vi 和 vw 之 间 的 距离 定义 为 


dij = 


(8) 


dik 三 一 十 一 (9) 


因此 ， 根 据 最 短路 径 原 则 ， 给 出 距离 rij 的 数学 定义 如 下 : 
假设 从 节点 vi 到 ww， 总 共有 p 条 路 径 。 分 别 计算 各 条 路 径 的 
长 度 分 别 为 dij1 qdij?qdij”…, dij*?， 比 较 所 有 的 路 径 ， 根 据 最 短 
路 径 的 原则 ， 将 尊 定 义 如 下 : 
rij = min{dij',dij®, dy,…,dy"} (10) 
在 定义 质量 和 距离 的 基础 上 ， 给 出 基于 好 友 关 系 的 相似 性 


relation 一 Fi =G 


C11) 


sim(uw) 7 


ry 
2.2 用 户 标签 行为 的 相似 度 
在 社会 标签 网 络 中 ， 标 签 可 以 表征 用 户 的 喜爱 偏好 ， 表 达 
用 户 观点 。 因 此 从 用 户 使 用 的 标签 的 内 容 和 频率 来 挖掘 用 户 的 
喜好 。 为 了 计算 用 户 标 签 行为 的 相似 度 ， 同 样 引入 牛顿 万 有 引 
力 定律 ， 给 出 如 下 的 一 些 定义 : 

定义 1 项 目 物体 。 推 荐 系统 中 的 项 目 定义 为 项 目 物体 。 
每 一 个 项 目 物体 有 着 其 质量 、 种 类 等 属性 。 其 中 受用 户 喜欢 的 
项 目 物体 为 用 户 喜好 物体 。 

定义 2 项 目 微粒 。 

将 构成 物体 的 若干 个 不 可 分 割 的 单元 定义 为 项 目 微粒 。 项 
目 微粒 也 具有 质量 、 类 别 属 性 。 

根据 以 上 定义 ， 将 用 户 使 用 的 标签 看 作 该 用 户 喜好 物体 的 
项 目 微粒 ， 由 这 些 项 目 微粒 共同 组 成 了 用 户 喜好 物体 模型 ， 反 
映 用 户 的 偏好 。 因 此 假设 社会 标签 系统 中 标签 集合 为 T = 
(tt2,…,t1), [为 标签 总 数 ， 则 对 于 任意 一 个 用 户 ui 来 说 ， 用 户 
喜好 物体 模型 为 

FB = (pie,s Pit Di) (12) 

其 中 : pit, 是 社会 标签 tl 的 使 用 频率 ， 表 示 用 户 ui 喜 好 物体 中 第 
1 个 项 目 微粒 。 


用 户 喜好 物体 模型 一 方面 反映 用 户 的 喜好 ， 另 一 方面 被 赋 
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予 物理 特性 。 因 此 根据 牛顿 万 有 引力 定律 ， 用 户 喜 好 物体 之 间 
存在 吸引 力 ， 该 引力 的 大 小 用 来 衡量 用 户 喜好 物体 模型 的 相似 
度 ， 引 力 越 大 ， 说 明 用 户 喜 好 物体 模型 之 间 的 相似 度 越 大 ， 两 
用 户 喜 好 物体 模型 中 包含 的 项 目 微粒 相似 越 多 ， 用 户 标签 行为 


越 相 似 。 因 此 ， 要 计算 用 户 喜 好 物体 之 间 的 引力 ， 首 先 需要 定 
义 用 户 喜 好 物体 的 质量 和 它们 之 间 的 距离 。 
a) 质量 。 用 户 喜 好 物体 的 质量 由 组 成 它们 的 项 目 微粒 的 质 


量 决定 。 若 某 项 目 物体 itemy 含 有 ! 种 项 目 微粒 , 则 该 项 目 物体 的 


质量 可 以 表示 为 一 个 质量 向 量 ， 如 下 : 
Mitem; 一 (mj mye, Mjt,) (13) 


其 中 , me, 表示 项 目 物体 itemy 第 ! 个 项 目 微粒 t 的 质量 , mye, > 


0。 


项 目 微粒 的 质量 取决 于 项 目 微粒 在 用 户 喜 好 物体 中 的 重要 

性 程度 ， 重 要 性 越 高 ， 则 该 项 目 微粒 的 质量 就 越 大 。 那么 ,六 

] 户 ui, 其 喜好 物体 模型 中 某 一 项 目 微粒 pi, 的 质量 

用 户 ui; 的 喜好 物体 的 重要 程度 : 
m(ui, pr) = w(ui, pe,) (14) 

其 中 ，m(wi,pe,) 表 示 项 目 微粒 pt, 在 用 户 u 喜 好 物体 模型 中 的 质 

微粒 ps, 对 该 用 户 喜 好 物体 模型 的 


于 一 个 特定 ) 


也 就 是 该 项 


微粒 pe 对 


mn 


要 性 


量 ， w(ui, pt,) 表 示 项 


重要 性 参数 采用 TF-IDF 算法 计算 : 

wu pa) = TFaupa) X IDE,, 

其 中 ，TFtwpw) 表 示 项 目 微粒 pi 在 用 户 喜 好 物体 中 出 现 的 频率 ， 

ID 所 表示, 该 项 目 微粒 在 所 有 用 户 的 喜好 物体 模型 中 的 区 分 能 
力 ， 计 算 方式 分 别 表示 为 ， 


num(uipe) 


(15) 


Twipe) 一 (16) 


TCD 


其 中 : numewipe) 表 示 用 户 UW 使 用 标签 t1 的 次 数 ，mmeww 表 示 用 


户 Ui 使 用 标签 的 总 次 数 。 


NUmMiser 


IDE, (17) 


pe, = log 


numz, 
其 中 : numuser 表 示 推 荐 系统 中 的 用 户 总 数 ，numz, 表 示 使 用 过 
标签 如 的 用 户 的 数量 。 

b) 距离 。 对 于 任意 两 个 用 
户 一 标签 频率 矩阵 S 中 两 用 
Sw; = (Si Si2,…, Si) 和 Suj = (05123523S10 的 之 间 的 距离 , 采用 


欧 几 里 德 距离 来 进行 计算 ， 数 学 表示 如 下 : 


户 uwz 和 w， 其 喜好 物体 之 间 的 距 


户 一 标签 向 量 


离 就 是 其 对 应 的 用 


加 | 
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(18) 


其 中 :dij 为 用 户 w 和 喜好 物体 模型 之 间 的 物理 距离 ，si 表 示 
用 户 ui 使 用 标签 t 的 频率 ，sjt 表 示 用 户 刀 使 用 标签 t 的 频率 。 

在 定义 用 户 喜 好 物体 模型 的 质量 和 喜好 物体 之 间 的 距离 的 
基础 上 ， 计 算 两 个 用 户 wi 和 包 的 喜好 物体 之 间 的 吸引 力 ， 从 而 
给 出 基于 用 户 喜好 的 相似 度 表 达 式 为 


Mitem:; * Mitem; 

: preference Be ee tC i 了 

Sim(wuj) Fi; = a (19 
ij 


其 中 : Fiy 表示 两 个 用 


) 


户 喜 好 物体 模型 的 吸引 力 。G 为 引力 常量 ， 


本 研究 默认 为 常量 1。mitemz 和 7nitery 分 别 表示 两 个 用 户 的 喜好 


物体 的 质量 ， 
2.3 ”融合 社交 行为 和 标签 行为 的 用 户 相似 度 


综合 前 文 研究 ， 提 出 融合 社交 行为 和 标签 行为 的 用 


度 计算 方法 如 下 : 
Sim(uinw) = Qsimcuu)) 


于 权衡 社交 行为 和 标签 行为 对 月 


relation preference 


+(1-= OW sim(wu)) 


dij 为 用 户 ui 和 喜好 物体 模型 之 间 的 物理 距离 。 


Ls 


(20) 


有 户 相似 值 


其 中 : 0<a<1， 


的 影响 程度 。 a 数值 具有 不 确定 性 , 将 视 社会 标签 网 络 的 


况 而 定 。 


3 ”融合 社交 行为 和 标签 行为 的 推荐 


户 相 似 


\ 体 情 


本 文 在 按照 融合 社交 行为 和 标签 行为 的 相似 值 考量 方法 求 


得 用 户 相似 值 之 后 ,使 
采用 如 下 的 方法 产生 推荐 的 结果 : 


Top-K 法 获取 


首先 假设 竺 


{v1 v2,… ,Vk}， 对 于 任 一 vjeNB, 获取 其 有 过 评价 的 本 


合 ltemi， 依 次 遍历 所 有 邻居 用 户 ,将 各 个 邻居 用 户 评价 过 的 项 


目 集合 1temi(i = 1,2,…,k) 组 成 新 的 集合 Item-Group， 
依据 项 目 类 别 进行 count 
筛选 出 个 数 超过 两 个 的 项 目 ， 


组 成 新 的 集合 Item-Recommend 推荐 给 用 户 。 


复 项 目 
计数 ， 根 据 闵 值 法 的 基本 思想 ， 


， 然 后 对 Item-Group 中 的 项 


即 count > 2 项 


4 ”实验 结果 与 分 析 


4.1 实验 数据 


是 保留 和 


标 用 户 的 近邻 集合 NB。 


E 荐 用 户 u 的 前 Top-K 邻居 组 成 的 集合 为 NB = 


本 文 使 用 的 实验 数据 是 Last.fm 数据 集 。 该 数据 集 包含 1892 


个 用 户 ，17632 位 歌手 和 11946 个 标签 ， 共 产生 12712 条 朋友 


关系 记录 和 184679 个 标签 行为 记录 。 


如 图 


3 所 示 。 总 共 构 成 20 个 连通 子 图 , 其 中 最 大 的 连通 子 图 


户 好 友 社 交 关 系 网 络 


所 
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包含 1843 个 用 户 ， 占 了 整个 数据 集 的 97.4%。 
实验 评估 前 ， 首 先 针 对 数据 得 


第 选 出 部 分 数据 作为 实验 数 提 


一 个 用 户 至 少 给 20 个 音乐 家 标注 过 标签 。 经 过 筛选 ,最 


619 个 用 户 及 其 所 有 的 好 友信 


将 这 组 数据 划分 为 两 部 分 : 训练 集 和 测试 集 。 本 文 使 用 
结果 ， 然 后 求 平 


证 法 总 共 进 行 五 次 实验 ， 得 到 5 组 实验 


A 
3 WE Wl 


71914 
2095 ye 1237 
5290 f/ 
1596 。 ， 


1497 ?de728 
toe 
1824 


4.2 实验 评估 指标 


图 3 Last.fm 数据 集 


1 


1398 
104 
4 


所 087, 
所 
7 a 


Rh 


7 


人 


ea | es 
1 
je 


居中 存在 噪音 数据 现 
时 : 针对 Last. fm 数据 集 ， 


HRY ON 


A 


户 社交 3 


系 网 络 图 


i M052 


R391 Ye85 1 821 
We | 
119. BA 


?1759 


息 记 录 和 标签 行为 记录 。 其 次 ， 


交叉 验 
均值 ， 


薪 


ChinaXiv 


云 ， 等 : 融合 社交 行为 和 标签 行 


出 的 算法 与 其 他 推荐 算法 进行 性 能 比较 


1) 权 习 


0.2，0.3，… 


和 E 值 a 对 算法 的 影响 
为 了 权衡 a 对 算法 的 影响 ， 分 别 将 a 的 取 


iy 合 作 期 和 


算法 研究 


的 


， 得 出 结论 


值 设 为 0.0，0.1， 


荐 结果 的 影响 ， 实 


，1.0 进行 实验 ， 并 且 为 了 消除 邻居 
验 过 程 中 依次 将 久 
t 进 行 了 9 组 实验 。 实 验 


不 同 的 a 值 对 


(SNUB-CF 算法 ) 准确 率 的 影响 。 


了 Precision 


0.7 


0.6 


0.5 


0.4 


0.2 


用 户 数 


0.3 上 。 


0.0 01 02 03 04 0.5 0.6 07 08 09 1.0 


从 图 


0.2 时 ， 


开始 不 断 增 
的 ， 呈 现 先 - 


a 


图 4 不 同 a 对 SNUB-CF 算法 的 准确 率 的 影响 


量 对 推 


居 用 户 的 数量 设 为 
结果 如 下 图 4。 可 
本 文 融合 社交 行为 和 标签 行为 的 推荐 算法 


以 看 出 


4 中 可 以 看 出 , 不 管 邻居 用 户 K 的 取 值 ， 随 着 a 从 0.0 
动 的 趋势 总 体 上 是 一 致 


加 , SNUB-CF 算法 准确 率 ; 
上 升 ， 达 到 最 高 点 ， 
E 荐 模型 


本 文 使 用 准确 率 (precision) 和 召回 率 (recall) 来 考察 推荐 


模型 的 质量 和 效果 。 准 确 率 表 行 


例 。 计 算 公 式 如 下 : 


Nlike 


precision = 


E 的 是 项 目 物品 被 成 功 


Nrecommend 


(21) 


其 中 : Nrecommend 表示 给 推荐 项 


在 推荐 的 项 目 中 , 受 该 用 户 喜 欢 的 项 目 总 数 。 


T 


模型 效果 越 好 。 
召回 率 的 计算 公式 为 
recall = Te 
Ntest 


其 中 ， ntest 表 示 测 试 集 中 


项 目 物体 中 ， 用 户 实际 感 兴趣 的 项 目 物体 的 数量 。 召 回 


越 大 ， 模 型 效果 越 好 。 
4.3 实验 结果 分 析 


荐 的 比 


集合 的 元 素 个 数 ， nixe 表 示 


项 目 物体 的 数量 ， nrixe 表 示 在 反 


准确 率 的 值 越 大 ， 
(22) 

荐 的 

EE。 召回 率 的 值 


本 文 的 推荐 算法 中 权重 值 c 和 用 户 邻 居 用 户 K 值 都 是 不 确 


定 的 ， 因 此 ， 本 实验 首先 对 a 和 K 
取得 最 优 的 实验 效果 , 然后 在 a 值 取得 最 


的 合理 取 值 进行 实验 验证 ， 


优 的 情况 下 , 将 


本 文 提 


荐 算法 的 模型 
比例 是 1:4。 说 明 


再 缓慢 下 降 的 趋势 。 当 a 取 值 是 
的 准确 率 的 值 最 好 。 也 就 是 说 在 本 文 给 出 的 推 


户 在 进行 项 


不 大 , 用 户 更 多 的 还 是 考虑 到 自 
忆 内 变化 时 ， 


萝 虚 用户 社交 行为 时 ， 与 a = 0.9 时 相 上 


40 一 50%， 


中， 社交 行为 与 标签 行为 对 最 后 推荐 结果 的 贡献 
选择 时 , 信任 好 友 对 其 的 影响 
身 的 喜好 。 当 a 在 0.8 一 1.0 的 范 


确 率 急剧 下 降 。 尤 


说 明 如 果 不 考虑 | 


根据 本 文 产生 


社交 行为 时 ， 


2) Top-K 


推荐 的 ; 


实验 观察 # 


5。 结 果 


侍 确 率 将 大 大 下 降 。 
取 值 对 算法 的 影响 

E 荐 的 方法 ， 将 K 的 取 值 设 为 2.3,4, …， 
售 荐 准确 率 随 着 K 值 不 断 变化 的 规律 。 实 验 结果 如 图 


户 标 签 行 


SNUB-CF 算 当 


为 ， 单 


其 是 当 a = 1.0 时 ， 即 只 
Et， 推荐 的 准确 率 下 降 


纯 考 虑 


10， 


最 高 点 ,1 


当 K=6 时 ,准确 率 


6 一 10 区 间 内 浮动 时 ， 推 荐 的 准确 率 又 


说 明 邻 居 数 量 
越 多 ， 推 荐 的 质量 越 好 。 对 于 本 实验 的 数 和 


的 大 小 能 


够 影响 推荐 的 质 


的 值 最 


内 浮动 


因此 


明 ， 不 管 权重 值 a 的 取 值 ， 随 着 K 值 的 不 断 增加 ， 
准确 率 呈 现 先 上 升 ,达到 
在 本 文 实验 环境 下 ， 当 开 的 
法 准确 率 不 断 上 升 。 


再 下 降 的 趋势 。 
值 在 2 一 5 区 间 
开始 下 降 。 


时 ， 算 
的 值 在 


， 实 验 


但 


不 是 邻 


里 


居 数 量 


昌 环 境 而 言 ， 当 目标 
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用 户 的 近邻 取 值 为 6 的 时 候 ， 实 验 结果 最 好 。 


Precision 


Last.fm 


图 5 不 同 的 K 值 情况 下 SNUB-CF 算法 的 准确 率 


对 于 值 较 大 时 ， 


a 


的 Item-Group 


count 之 2 的 项 目 


准确 率 降 低 的 问题 ， 


可 对 本 文 提 


E 荐 的 过 程 进行 改进 。 
的 集合 


因为 当 邻 居 用 户 比较 多 的 时 候 


会 导致 与 目标 


[a 
| 


9 


FP 项 目 数量 就 会 增多 ， 而 此 时 该 集合 中 
数量 也 就 较 多 , 但 是 随 着 近邻 用 户 数量 的 增加 
户 相似 值 较 小 的 用 户 也 包含 在 其 中 ， 从 而 导致 


的 产 


生成 


Item-Recommend 的 集合 中 推荐 的 项 目 不 一 定 是 目标 用 户 喜欢 
的 ， 因 此 在 推荐 项 目 物体 数量 较 多 且 被 正确 推荐 项 目 物体 数量 
较 小 的 情况 下 ， 结 果 的 准确 率 大 大 降低 。 为 了 改善 这 一 问题 ， 
可 以 对 count 进行 阔 值 调整 ， 提 高 项 目的 筛选 要 求 。 

当 K=8 时 ， 取 count > 2 和 count > 3 分 别 计算 推荐 的 准确 
率 ， 结 果 如 下 图 6。 从 该 图 中 可 以 看 出 ， 当 count 的 阔 值 提高 
时 ,进一步 限制 了 推荐 项 目的 范围 ,推荐 的 准确 率 也 相应 提高 
当 K=9,10,11,“ 时 ， 实 验 也 呈现 出 此 规律 。 因 此 ， 能 够 采用 调整 
E 荐 项 目 物体 的 闵 值 来 提升 推荐 结果 的 质量 。 


Precision 


图 6 K=8 时 不 同 count 值 情况 下 SNUB-CF 算法 的 准确 率 


3) 不 同 算法 的 推荐 性 能 比较 


为 了 验证 本 文 提出 推荐 算法 的 有 效 怕 
法 与 其 他 算法 进行 对 比分 析 ， 分 别 是 : FIT-CF 算法 "(Hybrid 


E， 将 文 SNUB-CF 算 


Collaborative Filtering Recommendation Algorithm Based on 


Friendships and Tag, 基 了 


PRT-CF 算法 "" 


FF 好友 关系 和 标签 的 混合 


办 同 过 滤 算 法 )、 


(personalized resource recommendation based on 


tags and collaborative filtering recommendation， 基 于 标签 和 协同 


过 滤 的 个 性 化 资源 


C 
薪 云 ， 


recommendation algorithm based on user’s gravitation， 基 于 用 


荐 算法 )、Social-CF 算法 代表 本 文 只 考虑 


户 引力 的 协同 过 滤 


hinaXiv 合 作 期 刊 
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E 荐 )、UGBCF 算法 (collaborative filtering 


用 户 社交 行为 的 推荐 算法 、Tag-CF 算法 代表 本 文 只 考虑 用 户 标 
签 行为 的 推荐 算法 。 通 过 实验 ， 得 到 以 上 方法 的 准确 率 值 和 人 召 
可 率 的 值 ， 分 别 如 图 7 和 8 所 示 。 
0.7 gg 
Last.fm 一 D 一 SNUB-CF 
06 ER 
—y— UGBCF 
0.5 一 人 一 Social-CF 


各 个 算法 在 指标 上 的 变化 规律 趋 ] 


Precision 


Top-K 


图 8 不 同 K 值 情况 下 各 算法 的 召回 率 


如 图 7 和 8 呈现 的 内 容 ， 随 着 邻 


值 的 增加 , 其 呈现 先 增 大 后 减 小 的 趋势 ， 
K=6 时 实验 效果 最 好 的 结论 ， 对 于 召回 率 ， 随 着 K 值 的 增加 ， 


如 


居 用 户 KK 
F 一 致 。 


值 的 不 断 增 加 ， 
侍 确 率 ， 随 着 K 


对 于 


进一步 验证 前 文 的 Top 


全 回 率 呈现 不 断 增 长 的 趋势 ， 但 是 增长 


趋 


算法 在 准确 率 和 召回 率 方面 都 要 优 于 其 他 算法 。 


平缓 。 
在 不 同 的 算法 之 间 ， 如 


CF 算法 对 比 ， 虽 然 FT-CF 算法 也 从 好 


综合 考虑 用 
低 于 SNUB-CF 算法 ， 说 明 本 文 使 
似 值 的 方法 更 加 精确 。 另 一 方 1 


法 和 


盲 息 出 发 ， 挖 气 用 户 的 兴趣 偏好 ， 且 U 


的 幅度 又 快 到 慢 ， 逐 渐 


图 7 和 8 所 示 ， 本 文 的 SNUB-CF 


面 ， 与 FT 


度 


一 沪 


友 关 系 和 标签 两 个 4 


户 之 间 的 相似 度 ， 但 是 该 算 


法 的 准确 率 和 有 召 世 


率 均 


= 


引力 模型 考察 用 


户 相 


万 


Tag-CF 算法 对 比 ， 这 三 个 算法 都 


力 模 型 计算 用 


本 文 的 SNUB-CF 算法 的 # 


站 基于 标签 信息 的 相似 度 


面 ， 与 PRT-CF 算法 、UGBCF 算 


仅仅 从 用 户 使 用 的 标签 
GBCF 算法 同样 使 用 引 
， 但 是 试验 结果 表明 ， 


对 确 率 和 召 区 


率 都 优 于 这 三 个 算法 ， 
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说 明 在 社会 标签 网 络 中 ， 仅 仅 考 虑 用 户 的 兴趣 偏好 具有 一 定 的 
片面 性 ， 如 果 同 时 考虑 用 户 之 间 的 社交 行为 ， 那 么 推荐 的 效果 
将 更 为 优越 。 


5 ”结束 语 


从 实验 结果 看 , SNUB-CF 算法 具有 良好 的 推荐 性 能 , 说 明 
在 豆 闪 、Last.fm 等 带 有 社交 性 质 的 社会 标签 网 络 中 ,融合 用 户 
秆 交行 为 和 标签 行为 能 够 更 加 全 面 地 考察 用 户 之 间 的 相似 度 。 
且 本 文 创新 性 地 将 牛顿 万 有 引力 定律 与 复杂 网 络 相 结合 ， 提 出 
社交 网 络 中 用 户 引力 ， 并 赋予 推荐 系统 物理 解释 。 实 验 表明 ， 
SNUB-CF 算法 在 计算 用 户 相 似 值 时 , 考虑 角度 更 为 全 面 , 计算 
方法 更 为 精确 ， 因 而 获得 的 邻居 用 户 更 为 相似 ， 推 荐 的 准确 率 
和 召回 率 更 高 。 

文章 主要 讨论 静态 网 络 的 协同 过 滤 推荐 算法 ， 然 而 伴随 着 

系统 中 用 户 、 项 目 和 标签 的 数量 持续 增多 ， 数 据 稀 琉 问 题 等 会 
导致 推荐 算法 的 性 能 降低 。 结 合 时 序 网 络 的 特征 ， 分 析 总 结 出 
在 不 同 的 时 间 切 片上 用 户 的 相似 性 特点 ， 从 而 提出 在 动态 网 络 
中 有 效 的 推荐 算法 模型 文章 进一步 研究 的 重点 。 
此 外 ， 本 文 仅仅 是 对 标签 信息 进 定 量 分 析 ， 而 标签 数据 中 
会 包含 丰富 的 语义 信息 。 如 果 能 够 借助 自然 语言 处 理 的 语义 分 
析 模 型 及 语义 分 析 工 具 进一步 挖掘 标签 中 的 信息 ， 将 能 更 好 地 
提高 推荐 的 质量 ， 这 也 是 本 文 的 下 一 步 研 究 方向 。 


i 


、 
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